论文推荐|[AAAI 2020]文本感知器:面向端到端任意形状的文本识别
本文简要介绍AAAI 2020论文“Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting”的主要工作。该论文主要针对自然场景图片不规则文字识别问题,提出了一种检测和识别完全端到端可训练的场景OCR算法Text Perceptron。具体地,该方法首先利用一个高效的基于分割的文本检测子来获取文本的潜在阅读顺序和边界信息,然后利用一个可微分的“形状变换模块(STM)”将不规则文本区域特征矫正为规则文本特征,进而送入后续的基于“四方向注意力”机制的序列识别子网络,最终实现一个完全端到端可训练,全局最优的文字识别框架。
以往的不规则文字检测结果不能很好的满足后续识别方法的识别要求,原因有两方面:a)识别任意形状的场景文字仍然是一个巨大的挑战,以往基于额外的矫正网络将不规则文本矫正到标准视角再识别,事实上,没有显著几何监督信息优化的矫正网络只能矫正微弱形变的文本;b)以前基于检测和识别的梯度不可回传的两阶段文本识别方法只能达到一个次最优的文本识别性能,如图1(a)所示。
图2是这篇文章提出的Text Perceptron的整体结构。首先,输入一张场景不规则文本图像,经过由ResNet-50[1]及FPN[2]网络组成的主干网络提取文本特征;训练时在FPN的Stages {2,3,4}的输出特征图上分别预测各文本实例的上下边界分割图,头部及尾部分割图,文本中心分割图,头部及尾部像素的各2角点坐标偏移量回归图,各文本中心像素到其上下边界的坐标偏移量回归图,并用Dices Coefficient Loss[3] 计算各预测的分割图与目标标签之间的损失值,
同时利用“Smooth L1 Loss[4]”计算各预测回归偏移量与目标回归值之间的损失,
进而优化不规则文本检测子网络,测试时,只在Stage 2阶段预测各分割图及回归相应偏移量。
同样可以计算尾部两顶点PN、PN+1的坐标(如图3所示),进一步通过二分法计算其他上下边界中基准点的坐标值。比如:通过P1和PN点横坐标计算点横坐标
在粉红色文本中心区域的
然后,如图3右子图所示,迭代地在两点之间运用二分法及带宽像素采样法计算其他基准点的坐标,直到计算出目标基准点个数。同样方法可以获得文本下边界上的对等基准点坐标。
最后,通过生成的基准点坐标及TPS逆变换将不规则形状的曲线文本矫正为水平拉直的规则文本(如图1(b)所示),
并送入后续的基于“四方向注意力机制”的AON[5]序列识别子网络预测最终的文本序列。该算法中基于TPS算法的STM模块是完全可微的,因而能够很好地桥接不规则文本检测子网络与识别子网络进行完全端到端的训练。
如图4(b)所示,1)针对粉红色文本中心区域分割标签图生成,采用对图4(a)的黑色多边形向内缩放、像素填充策略获得,缩放尺度为该多边形最小边的0.2倍;2)针对绿色头部及黄色尾部分割图,采用0.3倍最小边界尺度的向内压缩、像素填充法获得分割图;3)针对蓝色上下边界区域分割图,采用0.2倍最小边界尺度的向外扩张及向内压缩,并填充像素值获得;4)针对图4(c)绿色头部中每一个像素,只计算它到子图(a)中1,4两顶点的水平及垂直偏移量回归值。同时,针对黄色尾部中各像素,只计算它到子图(a)中2,3顶点的水平及垂直偏移量回归值。这样做的好处是,可以避免像EAST[6]算法中出现的“长距离大偏移量回归”较难学习及预测的困境。比如,绿色头部某个像素点到黄色尾部2,3顶点的水平及垂直偏移量回归就是大偏移量回归问题;5)同样子图(d)中针对粉红色中心区域各像素,计算其到上下蓝色边界的垂直偏移量
整体的损失函数:
E表示训练的Eopch数目,
测试时的输出分辨率是在原图
表4说明了针对不同的数据集,需要的基准点的数目是不一样的,针对IC15这种四边形的文本,只需要4个基准点,Total-Text需要的基准点数目越多越好,而CTW1500则需要的基准点数目与其标签保持一致。
图5说明了随着生成的基准点的数目的增加,STM模块的矫正能力更好,识别性能也更好。
图8说明:1)该完全端到端的方法对于那些重叠的文本,仍然无法克服基于实例分割方法的缺陷;2)针对那种不同方向排列,但是出现欠分割的文本,仍然效果不佳。
本文提出了一种基于实例分割的、高效的、带有顺序意识的场景文本检测子,该方法能够识别任意形状的场景文本,且能捕获潜在的文本阅读顺序信息。同时,为了解决以往检测和识别两阶段文本识别方法中出现的非完全端到端可训练的次最优问题,利用“可微分的形状变换模块”实现了一个完全端到端可训练的,全局最优的场景文本识别方法。
Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting,论文地址: https://pan.baidu.com/s/1LfwiZts4VOZCV9geoLo25A 提取码: 7ukf STN博客:https://blog.csdn.net/qq_14845119/article/details/79510714 TPS博客:https://blog.csdn.net/VictoriaW/article/details/70161180 TPS工程代码:https://github.com/WarBean/tps_stn_pytorch
[1]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[2]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[3]Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C] //2016 Fourth International Conference on 3D Vision (3DV). IEEE, 2016: 565-571.
[4]Ren S, He K, Girshick R, et al. Faster r-cnn:Towards real-time object detection with region proposal networks[C] //Advances in neural information processing systems. 2015: 91-99.
[5]Cheng Z, Xu Y, Bai F, etal. Aon: Towards arbitrarily-oriented text recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5571-5579.
[6]Zhou X, Yao C, Wen H, et al. EAST: an efficient and accurate scene text detector[C] //Proceedings of the IEEE conference on Computer Visionand Pattern Recognition. 2017: 5551-5560.
原文作者:LiangQiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu Shiliang Pu, Fei Wu
编排:高 学
审校:殷 飞
发布:金连文
论文推荐|[AAAI 2020]FET-GAN:通过K-shot自适应实例规范化进行字体和效果转移(有源码) 论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别 论文回顾|[ICDAR 2019]DeepSignDB:大规模联机签名数据集 论文推荐|[CVPR 2020]UnrealText:基于虚拟场景的真实场景文本图像合成 论文推荐|[CVPR 2020]增广学习:面向文本行识别的网络优化协同数据增广方法 论文推荐|[IEEE TPAMI 2020] TE141K:用于文字风格转换的大规模艺术文字数据库 论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes 论文推荐|[CVPR 2020]: 基于深度关系推理图网络的任意形状文本检测(有源码) 论文推荐|[PR 2020] 汉字层次学习的自由基分析网络 论文推荐|[AAAI 2020] GTC: CTC引导训练实现有效准确的场景文本识别
欢迎加入中国图象图形学学会!(附入会攻略)
(扫描识别如上二维码加关注)